<html>
 <head>
  <meta charset="utf-8"/>
  <meta content="width=device-width, initial-scale=1, maximum-scale=1, user-scalable=no" name="viewport"/>
  <title>
   Editor: 分组检测方法和 binGroup 包  | 数螺 | NAUT IDEA
  </title>
  <link href="http://cdn.bootcss.com/bootstrap/3.3.6/css/bootstrap-theme.min.css" rel="stylesheet"/>
  <link href="http://cdn.bootcss.com/bootstrap/3.3.6/css/bootstrap.min.css" rel="stylesheet"/>
  <style type="text/css">
   #xmain img {
                  max-width: 100%;
                  display: block;
                  margin-top: 10px;
                  margin-bottom: 10px;
                }

                #xmain p {
                    line-height:150%;
                    font-size: 16px;
                    margin-top: 20px;
                }

                #xmain h2 {
                    font-size: 24px;
                }

                #xmain h3 {
                    font-size: 20px;
                }

                #xmain h4 {
                    font-size: 18px;
                }


                .header {
	           background-color: #0099ff;
	           color: #ffffff;
	           margin-bottom: 20px;
	        }

	        .header p {
                  margin: 0px;
                  padding: 10px 0;
                  display: inline-block;  
                  vertical-align: middle;
                  font-size: 16px;
               }

               .header a {
                 color: white;
               }

              .header img {
                 height: 25px;
              }
  </style>
  <script src="http://cdn.bootcss.com/jquery/3.0.0/jquery.min.js">
  </script>
  <script src="http://cdn.mathjax.org/mathjax/latest/MathJax.js?config=TeX-AMS-MML_HTMLorMML" type="text/javascript">
   MathJax.Hub.Config({
          tex2jax: {inlineMath: [['$','$'], ['\\(','\\)']]},
          TeX: {equationNumbers: {autoNumber: "AMS"}}
        });
  </script>
  <script src="http://nautstatic-10007657.file.myqcloud.com/static/css/readability.min.js" type="text/javascript">
  </script>
  <script type="text/javascript">
   $(document).ready(function() {
                 var loc = document.location;
                 var uri = {
                  spec: "http://cos.name/2011/11/group-testing-and-bingroup/",
                  host: "http://cos.name",
                  prePath: "http://cos.name",
                  scheme: "http",
                  pathBase: "http://cos.name/"
                 };
    
                 var documentClone = document.cloneNode(true);
                 var article = new Readability(uri, documentClone).parse();
     
                 document.getElementById("xmain").innerHTML = article.content;
                });
  </script>
  <!-- 1466442482: Accept with keywords: (title(0.2):中国,统计学,服务平台,方法,门户网站, topn(0.666666666667):概率,统计学,R语言,参数估计,肝炎,变量,总体,特征,模型,例子,计算,文章,数据,条件期望,置信区间,假设检验,函数,样本,检验,编辑部,拟合,随机变量,会议,组中,方法,算法,分布,无法,阳性,数据分析).-->
 </head>
 <body class="single single-post postid-4348 single-format-standard sidebar" onload="">
  <div class="header">
   <div class="container">
    <div class="row">
     <div class="col-xs-6 col-sm-6 text-left">
      <a href="/databee">
       <img src="http://nautidea-10007657.cos.myqcloud.com/logo_white.png"/>
      </a>
      <a href="/databee">
       <p>
        数螺
       </p>
      </a>
     </div>
     <div class="hidden-xs col-sm-6 text-right">
      <p>
       致力于数据科学的推广和知识传播
      </p>
     </div>
    </div>
   </div>
  </div>
  <div class="container text-center">
   <h1>
    Editor: 分组检测方法和 binGroup 包
   </h1>
  </div>
  <div class="container" id="xmain">
   <div class="hfeed site" id="page">
    <header class="site-header" id="masthead" role="banner">
     <div id="cos-logo">
      <a href="http://cos.name/">
       <img src="http://cos.name/wp-content/themes/COS-kermesinus/images/headers/cos-logo.png"/>
      </a>
     </div>
     <div class="navbar" id="navbar">
      <nav class="navigation main-navigation" id="site-navigation" role="navigation">
       <h3 class="menu-toggle">
        菜单
       </h3>
       <a class="screen-reader-text skip-link" href="http://cos.name/2011/11/group-testing-and-bingroup/#content" title="跳至内容">
        跳至内容
       </a>
       <div class="menu-%e6%88%91%e7%9a%84%e8%8f%9c%e5%8d%95-container">
        <ul class="nav-menu" id="menu-%e6%88%91%e7%9a%84%e8%8f%9c%e5%8d%95">
         <li class="menu-item menu-item-type-custom menu-item-object-custom menu-item-home menu-item-4746" id="menu-item-4746">
          <a href="http://cos.name">
           主页
          </a>
         </li>
         <li class="menu-item menu-item-type-custom menu-item-object-custom menu-item-has-children menu-item-8120" id="menu-item-8120">
          <a href="http://cos.name/cn">
           论坛
          </a>
          <ul class="sub-menu">
           <li class="menu-item menu-item-type-custom menu-item-object-custom menu-item-8124" id="menu-item-8124">
            <a href="http://cos.name/cn/wp-login.php?action=register">
             论坛注册
            </a>
           </li>
           <li class="menu-item menu-item-type-custom menu-item-object-custom menu-item-8125" id="menu-item-8125">
            <a href="http://cos.name/cn/wp-login.php">
             论坛登录
            </a>
           </li>
          </ul>
         </li>
         <li class="menu-item menu-item-type-post_type menu-item-object-page menu-item-8110" id="menu-item-8110">
          <a href="http://cos.name/books/">
           图书资料
          </a>
         </li>
         <li class="menu-item menu-item-type-custom menu-item-object-custom menu-item-8112" id="menu-item-8112">
          <a href="http://cos.name/videos">
           视频教程
          </a>
         </li>
         <li class="menu-item menu-item-type-custom menu-item-object-custom menu-item-8333" id="menu-item-8333">
          <a href="http://cos.name/salon/">
           统计沙龙
          </a>
         </li>
         <li class="menu-item menu-item-type-post_type menu-item-object-page menu-item-8111" id="menu-item-8111">
          <a href="http://cos.name/chinar/">
           R语言会议
          </a>
         </li>
         <li class="menu-item menu-item-type-post_type menu-item-object-page menu-item-8109" id="menu-item-8109">
          <a href="http://cos.name/training/">
           讲座与培训
          </a>
         </li>
         <li class="menu-item menu-item-type-custom menu-item-object-custom menu-item-8115" id="menu-item-8115">
          <a href="http://cos.name/cn/forum/comprehensive/job/">
           招聘信息
          </a>
         </li>
         <li class="menu-item menu-item-type-custom menu-item-object-custom menu-item-has-children menu-item-4780" id="menu-item-4780">
          <a href="http://cos.name/about">
           关于我们
          </a>
          <ul class="sub-menu">
           <li class="menu-item menu-item-type-custom menu-item-object-custom menu-item-8113" id="menu-item-8113">
            <a href="http://cos.name/2008/11/how-to-work-with-cos/">
             加入我们
            </a>
           </li>
           <li class="menu-item menu-item-type-custom menu-item-object-custom menu-item-8119" id="menu-item-8119">
            <a href="http://cos.name/donate/">
             赞助我们
            </a>
           </li>
           <li class="menu-item menu-item-type-custom menu-item-object-custom menu-item-8114" id="menu-item-8114">
            <a href="http://cos.name/cn/forum/26">
             项目合作
            </a>
           </li>
          </ul>
         </li>
        </ul>
       </div>
       <form action="http://cos.name/" class="search-form" method="get" role="search">
        <label>
         <span class="screen-reader-text">
          搜索：
         </span>
        </label>
       </form>
      </nav>
      <!-- #site-navigation -->
     </div>
     <!-- #navbar -->
    </header>
    <!-- #masthead -->
    <div class="site-main" id="main">
     <div class="content-area" id="primary">
      <div class="site-content" id="content" role="main">
       <article class="post-4348 post type-post status-publish format-standard hentry category-data category-biostat category-packages category-software tag-bingroup tag-r-language tag-509 tag-510" id="post-4348">
        <header class="entry-header">
         <h1 class="entry-title">
          分组检测方法和 binGroup 包
         </h1>
         <div class="entry-meta">
          <span class="date">
           <a href="http://cos.name/2011/11/group-testing-and-bingroup/" rel="bookmark" title="链向分组检测方法和 binGroup 包的固定链接">
            <time class="entry-date" datetime="2011-11-10T12:01:08+00:00">
             2011/11/10
            </time>
           </a>
          </span>
          <span class="categories-links">
           <a href="http://cos.name/category/data/" rel="category tag">
            数据分析
           </a>
           、
           <a href="http://cos.name/category/data/biostat/" rel="category tag">
            生物与医学统计
           </a>
           、
           <a href="http://cos.name/category/software/packages/" rel="category tag">
            统计软件
           </a>
           、
           <a href="http://cos.name/category/software/" rel="category tag">
            软件应用
           </a>
          </span>
          <span class="tags-links">
           <a href="http://cos.name/tag/bingroup%e5%8c%85/" rel="tag">
            binGroup包
           </a>
           、
           <a href="http://cos.name/tag/r-language/" rel="tag">
            R语言
           </a>
           、
           <a href="http://cos.name/tag/%e5%88%86%e7%bb%84%e6%a3%80%e6%b5%8b/" rel="tag">
            分组检测
           </a>
           、
           <a href="http://cos.name/tag/%e6%a0%b7%e6%9c%ac%e6%a3%80%e6%b5%8b/" rel="tag">
            样本检测
           </a>
          </span>
          <span class="author vcard">
           <a class="url fn n" href="http://cos.name/author/editor/" rel="author" title="查看所有由COS编辑部发布的文章">
            COS编辑部
           </a>
          </span>
         </div>
         <!-- .entry-meta -->
        </header>
        <!-- .entry-header -->
        <div class="entry-content">
         <blockquote>
          <p>
           本文作者：张博安,University of Nebraska统计系在读博士
          </p>
         </blockquote>
         <p>
          $\qquad$今天给大家介绍一下分组检测（group testing）方法和我们写的关于该方法的 R 包
          <strong>
           binGroup
          </strong>
          。分组检测（又叫 pooled testing）主要用在样本检测当中，就是把一定数量的单个样本混合在一起，然后对混合样本（称为组；group）检测是否有某种特征。举一个例子，现在要检验 1000 个血液样本是否有艾滋病毒。如果对所有单个样本挨个检测（称为单体检测；individual testing），费时费力并且花费很大。如果我们把每四个单个样本混合，我们只需要对 250 个混合样本进行检测。对检验呈阳性的组，我们可以再对其中每个单个样本进行再检测。当具有所检测的特征样本比例比较小的时候，分组检测可以大幅减少检验的次数，从而节省时间和成本。因而分组检测在传染病监测（Gaydos, 2005），药物研发（Remlinger et al., 2006），基因分型（Chi et al., 2009）等各种有关样本检测的领域中都有成功和广泛的应用。
         </p>
         <h3 style="text-align: center;">
          1.均一总体（HOMOGENEOUS POPULATION）
         </h3>
         <p>
          $\qquad$分组检测方法在很长一段时间里都只用在均一（homogeneous）的总体上。在这个总体里，我们假定所有个体都是独立的，并且具有所检测特征的概率均为 $p$。$p$ 称为该特征的总体流行率（overall prevalence）。把 $Y_{ik}$ 记作在第 $k$ 组中样本 $i$ 的值，（$Y_{ik}=0$ 表明该样本没有所检测的特征；$Y_{ik}=1$ 表明该样本具有所检测的特征）。把 $I_k$ 记做第 $k$ 组中样本个数（称为组大小；group size），则对于 $ i = 1,\dots, I_k$，$k = 1,\dots, K$，$Y_{ik}$ 是独立同分布的 Bernoulli(p) 随机变量。类似的，把 $Z_k$ 记做第 $k$ 组的观测值（$\theta_{k}=0$ 表明该组检测呈阴性，$\theta_{k}=1$ 表明该组检测呈阳性），则对于 $k = 1,\dots, K$，$Z_k$ 是 Bernoulli($\theta_k$) 随机变量。我们的目的是估计 $p = P(Y_{ik} = 1)$，但是因为 $Y_{ik}$ 无法观测到，我们需要找出 $p$ 和 $Z_k$ 间的关系。 假定所有检测是完美的，我们有 $\theta_k=0 \Leftrightarrow \sum^{I_k}_{i=1}Y_{ik}=0$ 和 $\theta_k=1 \Leftrightarrow \sum^{I_k}_{i=1}Y_{ik}&gt;0$。则不难推出 $\theta_k=P(Z_k=1)=1-P(Z_k=0)=1-(1-p)^{I_k}$。又因为 $Z_k$ 是独立的 Bernoulli 随机变量，我们可以写出如下的似然函数：
         </p>
         <p style="text-align: center;">
          $L(p|z_1,\dots,z_k)=\sum^{K}_{k=1}[1-(1-P)^{I_k}]^{Z_k}(1-p)^{I_k(1-Z_k)}$
         </p>
         <p>
          再由MLE方法求得 $\widehat{p}$，并通过Fisher信息矩阵算出 $\widehat{p}$ 方差。我们写了两个 R 函数计算 $p$ 的置信区间。
          <em>
           bgtCI()
          </em>
          用来计算当所有组有相同大小时 $p$ 的置信区间。下面我们用一个例子说明如何使用
          <em>
           bgtCI()
          </em>
          。刘沛等(1997)这篇论文研究了在我国徐州地区丙型肝炎的流行率。实验者把 1875 个献血者的血液样本每五个混合（组大小为 5），再用 ELISA 检验试剂对 375 个组进行检测。结果有 37 个组检验呈阳性。则徐州地区丙型肝炎的总体流行率 $p$ 的 95% 置信区间可以如下计算：
         </p>
         <pre class="brush: r">&gt; bgtCI(n = 375, y = 37, s = 5,
+  conf.level = 0.95,
+  alternative = "two.sided",
+  method = "AC") 

95 percent AC confidence interval:
 [ 0.01487, 0.02821 ]
Point estimate: 0.02056</pre>
         <p>
          这里我们使用了 Agresti-Coull 置信区间，因为它通常有很好的覆盖概率。还有一些其它的置信区间可供选择，譬如 Clopper-Pearson，Wilson 和 Wald 区间（覆盖概率最差）等。如果大家学过属性数据分析，相信对这些二项分布参数的置信区间 不陌生。在组大小相等的情况下，我们有 [latex\theta=P(Z_k=1)=1-(1-p)^l]$。我们先算出关于 $\theta$ 的置信区间，再通过以上变换求得 $p$ 的置信区间。关于这些区间在分组检测情况下的比较，请参看 Tebbs and Bilder (2004)。当各组组大小不等的时候，置信区间的计算就变得复杂许多。我们提供了
          <em>
           bgtvs()
          </em>
          函数计算这种情形下的精确置信区间，这里就不详细介绍了。
         </p>
         <p>
          $\qquad$分组检测实验中很重要的一个步骤就是选择合适的组大小。如果组太小，很少的混合样本会检测呈阳性，我们就浪费了检测试剂；如果组太大，那么大部分的混合样本会检测呈阳性，对 $p$ 的估计就会很差。一个凭经验的方法是选一个组大小使得差不多一半的组检测呈阳性。更精确的方法是，当我们对 $p$ 有一个初步估计，选一个组大小使得 MSE（均方误差）最小化（Swallow, 1985）。在这个例子中，假定我们初步估计 $p$ 为 0.025，并设定组大小的上界为 100，则
          <em>
           estDesign()
          </em>
          函数可以计算出最佳的组大小是 61。
         </p>
         <pre class="brush: r">&gt; estDesign(n = 375, smax = 100, p.tr = 0.025)
group size s with minimal mse(p) = 61
$varp [1] 2.554086e-06 

$mse
[1] 2.560173e-06 

$bias
[1] 7.80204e-05 

$exp
[1] 0.02507802</pre>
         <p>
          当然，在实践中我们通常无法混合如此多个单个样本（阳性样本在被过度稀释后会检测呈阴性，称为稀释效应）。但是这个函数可以给我们选取组大小提供参考。对均一总体,我们的包中还包括以下函数：
         </p>
         <ul>
          <li>
           <em>
            bgtTest()
           </em>
           : 计算对 p 假设检验的 p 值
          </li>
          <li>
           <em>
            bgtPower()
           </em>
           : 计算对 p 假设检验的功效
          </li>
          <li>
           <em>
            nDeisgn()
           </em>
           ,
           <em>
            sDesign()
           </em>
           ,
           <em>
            plot.bgtDesign()
           </em>
           : 当 n 或 s 变化时，计算假设检验的功效并作图。
          </li>
         </ul>
         <p>
          这些函数可以帮助使用者设计自己的分组检测实验，这里我们就不一一介绍。
         </p>
         <h3 style="text-align: center;">
          2.非均一总体（HETEROGENEOUS POPULATION）
         </h3>
         <p>
          $\qquad$在现实中均一总体的假设总显得不切实际。拿之前那个的例子来说，酗酒者，饮食卫生条件较差或卫生习惯不良者会比其他人得肝炎的几率较大，所以认为所有人有同样感染肝炎的风险是不合常理的。如果能搜集到每一个献血者个人信息的数据，我们希望建立一个关于肝炎的流行率的回归模型，使我们能通过各种相关的因素预测个人感染肝炎的概率。当然，这不是一个简单的 logistic 模型，因为在分组检测中我们无法收集到个人是否患病的数据。我们需要新的估计参数的方法。
         </p>
         <p>
          $\qquad$我们仍然把 $Y_{ik}$ 记做在第 $k$ 组中样本 $i$ 的值，则 $p_{ik}=P(Y_{ik}=1)$ 是该样本具有所检测的特征的概率。把可能影响此概率的 $p-1$ 个变量记做 $x_{ik1}, x_{ik2},\dots, x_{ik,p-1}$，我们的回归模型是
         </p>
         <p style="text-align: center;">
          $f(p_{ik})=\beta_{0}+\beta_{1}x_{1ik}+\dots+\beta_{p-1}x_{p-1,ik}$
         </p>
         <p>
          其中 $f$ 是链接函数。对于 $i = 1, \dots, I_k$， $k = 1,\dots, K$，$Y_{ik}$ 是独立的 Bernoulli($p_{ik}$) 随机变量。目前主要有两种方法估计 。第一种方法是由 Vansteelandt et al. (2000)提出的。假定所有检测都是完美的，则不难推出
         </p>
         <p style="text-align: center;">
          $\theta_{k}=1-\sum^{I_k}_{i=1}(1-p_{ik})$
         </p>
         <p>
          又因为 $Z_k$ 是独立的 Bernoulli 随机变量，我们可以写出如下的似然函数：
         </p>
         <p>
          $L(\beta_0,\dots,\beta_{p-1}|Z_1,\dots,Z_k)$
         </p>
         <p>
          $=\prod^{K}_{k=1}(1-\prod^{I_k}_{i=1}(1-p_{ik}))^{z_K}(\prod^{I_k}_{i=1}(1-p_{ik}))^{1-z_K}$
         </p>
         <p>
          $=\prod^{K}_{k=1}[1-\prod^{I_k}_{i=1}(1-f^{-1}(\beta_0+\beta_1x_{1ik}+\dots+\beta_{p-1}x_{p-1,ik}))]^{Z_k}$
         </p>
         <p>
          $\times [\prod^{I_k}_{i=1}(1-f^{-1}(\beta_0+\beta_1x_{1ik}+\dots+\beta_{p-1}x_{p-1,ik}))]^{1-Z_k}$
         </p>
         <p>
          再由 MLE 估计 $\beta$。在包中我们是用
          <em>
           optim
          </em>
          函数实现 MLE 估计的。这个方法浅显易懂，但是缺点是不够灵活。当我们对阳性组中单个样本再检测的时候，这些再检验的结果无法被包括在参数估计中。另外一种更灵活的方法是由 Xie (2001)提出的。假设我们有每个单个样本的值，则似然函数具有简单的二项分布的形式：
         </p>
         <p style="text-align: center;">
          $L(\beta_0,\dots,\beta_{p-1}|y_{11},\dots,y_{I_kK})=\prod^{K}_{k=1}\prod^{I_k}_{i=1}p^{y_{ik}}_{ik}(1-p_{ik})^{1-y_{ik}}$
         </p>
         <p>
         </p>
         <p>
          因为单个样本无法观测到，我们将上式中的每一个 $y_{ik}$ 替换为 $E(Y_{ik}|Z_1=z_1,\dots,Z_k= z_k)$，再利用 EM 算法估计 $\beta$。EM 算法是在参数估计中非常重要的方法，在处理缺失数据和隐性变量模型等领域应用广泛。有关 EM 算法的简介，可以参看 Casella and Berger (2001, p. 326 – 329)。对我们的问题，EM 算法由下面给出：
         </p>
         <p>
          1. E-step：计算$\widehat{w}_{ik}=E(Y_{ik}|Z_1=z_1,\dots,Z_k=z_k)$
          <br/>
          2. M-Step：找出β使得以下似然函数的条件期望最大化（其中 $p_{ik}$ 是 $\beta$ 的函数）$E[log(L(\beta|y_{11},\dots,y_{I_kK}))|Z_1=z_1,\dots,Z_k=z_k]=\sum^{K}_{k=1}\sum^{I_k}_{i=1}\widehat{w}_{ik}log(p_{ik})+(1-\widehat{w}_{ik})log(1-p_{ik})$
          <br/>
          3. 重复步骤1和2直到 $|(\widehat{\beta}^{(r)}_d-\widehat{\beta}^{(r-1)}_d)/\widehat{\beta}^{(r-1)}_d|&lt;\epsilon$。其中$\widehat{\beta}^{(r)}$是$\beta$的第r次估计，$\epsilon &gt; 0$
         </p>
         <p>
          $\beta$ 的方差可以由 Louis’formula 得到。该方法的优点是非常灵活，可容纳对单个样本再检验，以及应用在如阵列分组(matrix or array-based pooling, Phatarfod and Sudbury, 1994; Kim et al., 2007)等更复杂的分组检测的场合。在我们的包中，gtreg 函数用来拟合分组检测回归模型。在使用时，我们可以指定检验的敏感性(sensitivity)和特异性(specificity)（在以上的介绍中，为简单起见，我们没有讨论检测有误差的情形），分组编号，参数估计的方法（Vansteelandt 或 Xie）等。如果我们要包含对单个样本再检验结果，则只能使用 Xie 方法；除此以外，两种方法应给出非常相似的结果。
         </p>
         <p>
          $\qquad$我们用 Vansteelandt et al. (2000)中的一个例子来说明如何使用
          <em>
           gtreg
          </em>
          函数。数据来自一项对肯尼亚偏远地区怀孕妇女 HIV 感染率监测的研究，研究者收集了所有怀孕妇女的个人信息，这里我们选取年龄和教育水平两项变量预测每位妇女感染 HIV 的概率。数据的最后几行如下：
         </p>
         <pre class="brush: r">&gt; data(hivsurv)
&gt; tail(hivsurv[,c(3,5,6:8)], n = 7)
    AGE EDUC. HIV gnum groupres
422  29     3   1   85        1
423  17     2   0   85        1
424  18     2   0   85        1
425  18     2   0   85        1
426  22     3   0   86        0
427  30     2   0   86        0
428  34     3   0   86        0</pre>
         <p>
          可以看到每一组中单个样本都有同样的分组编号（gnum)和）值（groupres）.例如第 422 个样本是 HIV 阳性，所以在第 85 组中的所有样本都有 “1” 的组值。这组数据中也包括单体检测的数据（HIV），因为实验者希望证实分组检测在节约大量的成本的同时可以得到和单体检测几乎一样好的估计。现在我们就用
          <em>
           gtreg
          </em>
          函数拟合数据，并用包中的
          <em>
           summary
          </em>
          函数给出总结性的输出。
         </p>
         <pre class="brush: r">&gt; fit1  summary(fit1)

Call:
gtreg(formula = groupres ~ AGE + EDUC., data = hivsurv, groupn = gnum,
    sens = 0.99, spec = 0.95, linkf = "logit", method = "Vansteelandt") 

Deviance Residuals:
    Min       1Q   Median       3Q      Max
-1.1813  -0.9385  -0.8221   1.3297   1.6694   

Coefficients:
            Estimate Std. Error z value Pr(&gt;|z|)
(Intercept) -2.99039    1.59911  -1.870   0.0615 .
AGE         -0.05163    0.06748  -0.765   0.4443
EDUC.        0.73621    0.43885   1.678   0.0934 .
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

    Null deviance: 191.4  on 85  degrees of freedom
Residual deviance: 109.4  on 83  degrees of freedom
AIC: 115.4 

Number of iterations in optim(): 138</pre>
         <p>
          拟合的结果存放在 fit1 中，我们定义它为”gt” class。得到的模型可以写成
         </p>
         <p style="text-align: center;">
          $logit(\widehat{p}_{ik})=-2.99-0.0516Age_{ik}+0.7362Educ_{ik}$
         </p>
         <p>
          其中 $\widehat{p}_{ik}$ 是第 $k$ 组中第 $i$ 个样本 HIV 阳性的概率的估计。
         </p>
         <p>
          $\qquad$在
          <strong>
           binGroup
          </strong>
          包中还包括一些其他函数。如
          <em>
           sim.gt
          </em>
          产生分组检测数据，
          <em>
           predict.gt
          </em>
          根据参数的估计值预测 $p_{ik}$ 等。
          <em>
           gtreg.mp
          </em>
          函数适用于在基因分型领域有非常重要应用的阵列分组。在这类实验中，所有单个样本被放在一个或多个阵列的方格中（例如 $n^2$ 个样本就分配到 $n \times n$ 个方格里）， 然后将每一行的样本作为一组,每一列的样本作为一组检测。如果某一行和某一列检测呈阳性，则在它们交叉的位置的单个样本很可能具有所检测的特征。这种分组方式特别之处在于每个单个样本同时出现在所在行和所在列的组中，所以 Vansteelandt 方法无法应对这种分组方式。而对 Xie 方法，我们只需把所有行的观测值，列的观测值作为已知信息包含在 E-step 中的条件期望，就可通过 EM 算法求得参数估计。
         </p>
         <p>
          $\qquad$值得一提的是，在很多分组检测的的场合（如对单个样本再检验，阵列分组等），E-step 中的条件期望很难求出，或者没有解析表达，这种情况下我们可以使用 Gibbs sampling 方法估计条件期望。Gibbs sampling（可以参看 Carlin and Louis, 2008, Section 3.4.1）方法是 Metropolis-Hastings 算法的一个特例。简单来说，当多个变量的联合概率分布不明确，而各个变量的条件分布已知的时候，Gibbs sampling 根据其他变量的当前值，依次对分布的每个变量生成一个样本，最后建立一个马尔可夫链，其平衡分布就是这多个变量的联合分布。为叙述方便，我们把所有单个样本的值重新标记为 $Y_1,\dots, Y_N$，把所有可观测到的变量（所有组值，再检验结果等）记作 $T$。因为 $Y_1,\dots, Y_N|T=t$ 的分布很难求出，而对每一个 $i$，条件分布 $Y_i|Y_s=y_s,s \ne i,T=t$ 则容易求得，所以我们可以生成 Gibbs 样本 $y^{*}_i \sim f(Y_i|Y_s=y_s,s \ne i,T=t)$。在 $N$ 个单个样本中循环 $K$ 次($K$ 通常很大)后，我们得到一个 Monte Carlo Markov Chain 并且 $(y^{*}_1,\dots,y^{*}_N)$ 的联合分布收敛到 $Y_1,\dots, Y_N|T=t$。现在我们可以用 $\sum y^{*}_i/K$ 估计 $\widehat{w}_i=E(Y_i|T=t)$ ，其中 $\sum$ 是对所有 $K$ 个 Gibbs 样本求和。这时的 EM 算法称作 Monte Carlo Expected Maximization(MCEM)算法。当然，因为在每个 E-step 中我们要产生大量的 Gibbs 样本，这种方法通常较慢。
         </p>
         <p>
          $\qquad$以上向大家简单介绍了分组检测的一些方法及其在 R 中的实现。我们这里只讨论了分组检测中参数估计的问题。还有很多方法(参看 Bilder, Tebbs, and Chen, 2010)专注于如何通过再检验最快找出所有 $Y_{ik}=1$ 的样本，这些方法反过来也依赖于我们估计的 $\widehat{p}_{ik}$（在阳性组中优先再检验 $\widehat{p}_{ik}$ 大的样本）。如果你的工作中能用到这些方法，欢迎你使用我们的
          <strong>
           binGroup
          </strong>
          包以及向我咨询；如果和你的工作没有直接的联系，我们的模型和 R 程序也涉及了统计学中一些热门的方法，希望能对大家有所帮助和启发。
         </p>
         <p>
          下载本文PDF文档：
          <a href="http://cos.name/wp-content/uploads/2011/11/分组检测方法和binGroup包.pdf">
           分组检测方法和binGroup包
          </a>
         </p>
         <div class="wumii-hook">
          <br/>
          <br/>
         </div>
        </div>
        <!-- .entry-content -->
        <footer class="entry-meta">
         <div class="author-info">
          <div class="author-avatar">
           <img src="http://sdn.geekzu.org/avatar/2fe058e9e383c85afa949b36e869432f?s=74&amp;d=monsterid&amp;r=g"/>
          </div>
          <!-- .author-avatar -->
          <div class="author-description">
           <h2 class="author-title">
            关于COS编辑部
           </h2>
           <p class="author-bio">
            本账户为COS编辑部公共账户，目前由朱雪宁任主编，王小宁任副主编，编辑有：冯璟烁、吴佳萍、张心雨、施涛、霍志骥、何通、冷静、尤晓斌、肖楠、邱怡轩、高涛、谢益辉等人，主要负责主站文章的规范化编辑以及相关论文、书籍、手册的整理、编纂、出版等工作。
            <a class="author-link" href="http://cos.name/author/editor/" rel="author">
             查看所有由COS编辑部发表的文章
             <span class="meta-nav">
              →
             </span>
            </a>
           </p>
          </div>
          <!-- .author-description -->
         </div>
         <!-- .author-info -->
        </footer>
        <!-- .entry-meta -->
       </article>
       <!-- #post -->
       <nav class="navigation post-navigation" role="navigation">
        <h1 class="screen-reader-text">
         文章导航
        </h1>
        <div class="nav-links">
         <a href="http://cos.name/2011/11/introduction-ofcomputer-experiment/" rel="prev">
          <span class="meta-nav">
           ←
          </span>
          计算机试验简介
         </a>
         <a href="http://cos.name/2011/11/4th-china-r-shanghai-summary/" rel="next">
          第四届中国R语言会议（上海会场）纪要
          <span class="meta-nav">
           →
          </span>
         </a>
        </div>
        <!-- .nav-links -->
       </nav>
       <!-- .navigation -->
       <div class="comments-area" id="comments">
        <div class="comment-respond" id="respond">
         <h3 class="comment-reply-title" id="reply-title">
          发表评论
          <small>
           <a href="http://cos.name/2011/11/group-testing-and-bingroup/#respond" id="cancel-comment-reply-link" rel="nofollow" style="display:none;">
            取消回复
           </a>
          </small>
         </h3>
         <form action="http://cos.name/wp-comments-post.php" class="comment-form" id="commentform" method="post" novalidate="">
          <p class="comment-notes">
           <span id="email-notes">
            电子邮件地址不会被公开。
           </span>
           必填项已用
           <span class="required">
            *
           </span>
           标注
          </p>
          <p class="comment-form-comment">
           <label for="comment">
            评论
           </label>
           <textarea aria-required="true" cols="45" id="comment" maxlength="65525" name="comment" required="required" rows="8">
           </textarea>
          </p>
          <p class="comment-form-author">
           <label for="author">
            姓名
            <span class="required">
             *
            </span>
           </label>
          </p>
          <p class="comment-form-email">
           <label for="email">
            电子邮件
            <span class="required">
             *
            </span>
           </label>
          </p>
          <p class="comment-form-url">
           <label for="url">
            站点
           </label>
          </p>
          <p class="form-submit">
          </p>
          <p style="display: none;">
          </p>
          <p style="display: none;">
          </p>
         </form>
        </div>
        <!-- #respond -->
       </div>
       <!-- #comments -->
      </div>
      <!-- #content -->
     </div>
     <!-- #primary -->
     <div class="sidebar-container" id="tertiary" role="complementary">
      <div class="sidebar-inner">
       <div class="widget-area">
        <aside class="widget widget_text" id="text-3">
         <h3 class="widget-title">
          关注统计之都
         </h3>
         <div class="textwidget">
          <ul>
           <li>
            新浪微博
            <a href="http://weibo.com/cosname">
             @统计之都
            </a>
           </li>
           <li>
            人人网
            <a href="http://renren.com/cosname">
             @统计之都
            </a>
           </li>
           <li>
            Twitter
            <a href="http://twitter.com/cos_name">
             @cos_name
            </a>
           </li>
          </ul>
         </div>
        </aside>
        <aside class="widget widget_text" id="text-6">
         <h3 class="widget-title">
          微信公众平台
         </h3>
         <div class="textwidget">
          <img src="http://cos.name/wp-content/uploads/2013/04/qrcode-8cm.jpg"/>
          <p style="font-size:12px;margin-left:15px">
           微信号 CapStat
          </p>
          <p>
           我们将第一时间向您推送主站和论坛的精彩内容，以及统计之都的线下活动、竞赛、培训和会议信息。
          </p>
         </div>
        </aside>
        <aside class="widget widget_text" id="text-8">
         <h3 class="widget-title">
          站内导航
         </h3>
         <div class="textwidget">
          <ul>
           <li class="page_item">
            <a href="http://cos.name/cn/">
             中文论坛
            </a>
           </li>
           <li class="page_item">
            <a href="http://cos.name/videos/">
             视频
            </a>
           </li>
           <li class="page_item">
            <a href="http://cos.name/salon/">
             统计沙龙
            </a>
           </li>
           <li class="page_item">
            <a href="http://cos.name/books/">
             图书出版
            </a>
           </li>
           <li class="page_item">
            <a href="http://cos.name/training/">
             教育培训
            </a>
           </li>
           <li class="page_item">
            <a href="http://cos.name/about/">
             关于我们
            </a>
           </li>
           <li class="page_item">
            <a href="http://cos.name/donate/">
             捐赠
            </a>
           </li>
           <li class="page_item">
            <a href="http://cos.name/chinar/">
             R语言会议
            </a>
           </li>
          </ul>
         </div>
        </aside>
        <aside class="widget widget_links" id="linkcat-2">
         <h3 class="widget-title">
          友情链接
         </h3>
         <ul class="xoxo blogroll">
          <li>
           <a href="http://stat.ruc.edu.cn" target="_blank" title="中国人民大学统计学院网站">
            中国人民大学统计学院
           </a>
          </li>
          <li>
           <a href="http://rucdmc.net">
            中国人民大学数据挖掘中心
           </a>
          </li>
          <li>
           <a href="http://birc.gsm.pku.edu.cn/" target="_blank">
            北京大学商务智能研究中心
           </a>
          </li>
          <li>
           <a href="http://sam.cufe.edu.cn/" target="_blank" title="中央财经大学统计与数学学院网站">
            中央财经大学统计与数学学院
           </a>
          </li>
          <li>
           <a href="http://tjx.cueb.edu.cn/" target="_blank" title="首都经济贸易大学统计学院网站">
            首经贸统计学院
           </a>
          </li>
          <li>
           <a href="http://www.shookr.com/">
            数客网大数据社区
           </a>
          </li>
          <li>
           <a href="http://www.xueqing.tv/" target="_blank" title="数据科学在线学习平台">
            雪晴数据网
           </a>
          </li>
          <li>
           <a href="http://iera.name/" target="_blank" title="IERA是一个旨在普及、传播和增进工业工程知识的非营利性网站">
            IERA（直通IE）
           </a>
          </li>
         </ul>
        </aside>
        <aside class="widget widget_categories" id="categories-2">
         <h3 class="widget-title">
          全部分类
         </h3>
         <label class="screen-reader-text" for="cat">
          全部分类
         </label>
         <select class="postform" id="cat" name="cat">
          <option value="-1">
           选择分类目录
          </option>
          <option class="level-0" value="925">
           cos访谈  (4)
          </option>
          <option class="level-0" value="659">
           图书出版  (5)
          </option>
          <option class="level-0" value="379">
           数学方法  (14)
          </option>
          <option class="level-1" value="381">
           分析与代数  (1)
          </option>
          <option class="level-1" value="380">
           概率论  (9)
          </option>
          <option class="level-1" value="382">
           随机过程  (5)
          </option>
          <option class="level-0" value="210">
           数据分析  (81)
          </option>
          <option class="level-1" value="203">
           多元统计  (3)
          </option>
          <option class="level-1" value="42">
           数据挖掘与机器学习  (42)
          </option>
          <option class="level-1" value="36">
           生物与医学统计  (17)
          </option>
          <option class="level-1" value="35">
           计量经济学  (4)
          </option>
          <option class="level-1" value="296">
           金融统计  (3)
          </option>
          <option class="level-1" value="303">
           风险精算  (7)
          </option>
          <option class="level-0" value="177">
           模型专题  (15)
          </option>
          <option class="level-1" value="38">
           回归分析  (10)
          </option>
          <option class="level-1" value="41">
           时间序列  (2)
          </option>
          <option class="level-0" value="784">
           每周精选  (24)
          </option>
          <option class="level-1" value="183">
           可视化  (9)
          </option>
          <option class="level-0" value="967">
           沙龙纪要  (3)
          </option>
          <option class="level-0" value="18">
           经典理论  (46)
          </option>
          <option class="level-1" value="37">
           抽样调查  (3)
          </option>
          <option class="level-1" value="4">
           统计推断  (26)
          </option>
          <option class="level-1" value="236">
           试验设计  (7)
          </option>
          <option class="level-1" value="39">
           非参数统计  (3)
          </option>
          <option class="level-0" value="1">
           统计之都  (279)
          </option>
          <option class="level-1" value="884">
           中国R会议  (2)
          </option>
          <option class="level-1" value="885">
           中国R语言会议  (5)
          </option>
          <option class="level-1" value="446">
           出国留学  (3)
          </option>
          <option class="level-1" value="179">
           推荐文章  (90)
          </option>
          <option class="level-1" value="3">
           新闻通知  (75)
          </option>
          <option class="level-1" value="263">
           统计刊物  (10)
          </option>
          <option class="level-1" value="174">
           网站导读  (40)
          </option>
          <option class="level-1" value="204">
           职业事业  (51)
          </option>
          <option class="level-1" value="213">
           高校课堂  (9)
          </option>
          <option class="level-0" value="178">
           统计计算  (28)
          </option>
          <option class="level-1" value="40">
           优化与模拟  (15)
          </option>
          <option class="level-1" value="43">
           贝叶斯方法  (6)
          </option>
          <option class="level-0" value="378">
           软件应用  (116)
          </option>
          <option class="level-1" value="44">
           统计图形  (36)
          </option>
          <option class="level-1" value="110">
           统计软件  (83)
          </option>
         </select>
        </aside>
        <aside class="widget widget_recent_comments" id="recent-comments-2">
         <h3 class="widget-title">
          最新评论
         </h3>
         <ul id="recentcomments">
          <li class="recentcomments">
           <span class="comment-author-link">
            fineboom
           </span>
           发表在《
           <a href="http://cos.name/2016/06/use-shiny-fleetly-set-up-visual-prototype-system/#comment-7317">
            利用shiny包快速搭建可视化原型系统
           </a>
           》
          </li>
          <li class="recentcomments">
           <span class="comment-author-link">
            胡家新
           </span>
           发表在《
           <a href="http://cos.name/2016/06/r%e8%af%ad%e5%8d%83%e5%af%bb%e7%ac%ac%e4%b8%89%e6%9c%9f%ef%bc%9a%e5%bc%a0%e6%97%a0%e5%bf%8c%e7%a9%b6%e7%ab%9f%e7%88%b1%e8%b0%81%ef%bc%9f/#comment-7316">
            R语千寻第三期：张无忌究竟爱谁？
           </a>
           》
          </li>
          <li class="recentcomments">
           <span class="comment-author-link">
            <a class="url" href="http://www.zijiacha.com/category.php?id=6" rel="external nofollow">
             南糯山普洱茶
            </a>
           </span>
           发表在《
           <a href="http://cos.name/2016/06/r%e8%af%ad%e5%8d%83%e5%af%bb%e7%ac%ac%e4%b8%89%e6%9c%9f%ef%bc%9a%e5%bc%a0%e6%97%a0%e5%bf%8c%e7%a9%b6%e7%ab%9f%e7%88%b1%e8%b0%81%ef%bc%9f/#comment-7315">
            R语千寻第三期：张无忌究竟爱谁？
           </a>
           》
          </li>
          <li class="recentcomments">
           <span class="comment-author-link">
            J
           </span>
           发表在《
           <a href="http://cos.name/2016/05/value-of-the-reputation-from-the-data/#comment-7314">
            数据告诉你：高信誉的卖家应该收高价，还是收低价？
           </a>
           》
          </li>
          <li class="recentcomments">
           <span class="comment-author-link">
            <a class="url" href="http://gg" rel="external nofollow">
             Hilda
            </a>
           </span>
           发表在《
           <a href="http://cos.name/2013/01/drawing-map-in-r-era/#comment-7311">
            R时代，你要怎样画地图？
           </a>
           》
          </li>
         </ul>
        </aside>
        <aside class="widget widget_rss" id="rss-282869971">
         <h3 class="widget-title">
          <a class="rsswidget" href="http://cos.name/cn/topics/feed/">
           <img src="http://cos.name/wp-includes/images/rss.png"/>
          </a>
          <a class="rsswidget" href="http://cos.name/cn/topics/feed/">
           中文论坛新帖
          </a>
         </h3>
         <ul>
          <li>
           <a class="rsswidget" href="http://cos.name/cn/topic/417372/">
            处理时间数据和产生时间序列的问题
           </a>
          </li>
          <li>
           <a class="rsswidget" href="http://cos.name/cn/topic/6790/">
            《统计陷阱》下载 （How to lie with statistics）
           </a>
          </li>
          <li>
           <a class="rsswidget" href="http://cos.name/cn/topic/818/">
            统计学的世界（第五版）
           </a>
          </li>
          <li>
           <a class="rsswidget" href="http://cos.name/cn/topic/16574/">
            class(x) 返回值值是AsIs,AsIs代表什么，有什么用处？
           </a>
          </li>
          <li>
           <a class="rsswidget" href="http://cos.name/cn/topic/417366/">
            如何用R绘制一个分类算法的决策规则
           </a>
          </li>
         </ul>
        </aside>
        <aside class="widget widget_text" id="text-2">
         <h3 class="widget-title">
          登录/RSS
         </h3>
         <div class="textwidget">
          <ul>
           <li>
            <a href="http://cos.name/wp-admin/">
             登录
            </a>
           </li>
           <li>
            <a href="http://cos.name/feed/" title="使用 RSS 2.0 同步站点内容">
             文章
             <abbr title="Really Simple Syndication">
              RSS
             </abbr>
            </a>
           </li>
           <li>
            <a href="http://cos.name/comments/feed/" title="RSS 上的最近评论">
             评论
             <abbr title="Really Simple Syndication">
              RSS
             </abbr>
            </a>
           </li>
          </ul>
         </div>
        </aside>
       </div>
       <!-- .widget-area -->
      </div>
      <!-- .sidebar-inner -->
     </div>
     <!-- #tertiary -->
    </div>
    <!-- #main -->
    <footer class="site-footer" id="colophon" role="contentinfo">
     <div class="site-info">
      版权所有 © 2014 统计之都 | 由
      <a href="http://wordpress.org/">
       WordPress
      </a>
      构建 | 主题修改自
      <a href="http://wordpress.org/themes/twentythirteen">
       Twenty Thirteen
      </a>
     </div>
     <!-- .site-info -->
    </footer>
    <!-- #colophon -->
   </div>
   <!-- #page -->
   <p style="margin:0;padding:0;height:1px;overflow:hidden;">
    <a href="http://www.wumii.com/widget/relatedItems" style="border:0;">
     <img src="http://static.wumii.cn/images/pixel.png"/>
    </a>
   </p>
  </div>
 </body>
</html>